视频时刻的检索和突出显示检测是视频理解中的两个高度宝贵的任务,但是直到重新进行了共同研究。尽管现有研究最近取得了令人印象深刻的进步,但它们主要遵循数据驱动的自下而上的范式。这种范式忽略了特定于任务的和任务间的效果,导致模型性能差。在此过程中,我们提出了一个新型任务驱动的自上而下的框架 - 联合力矩检索并突出检测。该框架引入了一个任务耦合的单元,以捕获特定于任务和共同表示形式。为了研究这两个任务之间的相互作用,我们提出了一种任务式反馈机制,该机制将一个任务的结果构成指导蒙版的结果,以指导另一个任务。与现有方法不同,我们提出了一个与任务有关的关节损失函数,以优化模型。对QVhighlights,TVSUM和Charades-Sta数据集进行了全面的实验和深入研究,证实了所提出的框架的有效性和灵活性。代码可在github.com/edengabriel/taskweave上找到。
主要关键词
![arxiv:2404.09263v1 [cs.cv] 2024年4月14日PDF文件第1页](/bimg/4/4ef8e325101ba9d16fd36628a90a0e20cc22dc02.webp)
![arxiv:2404.09263v1 [cs.cv] 2024年4月14日PDF文件第2页](/bimg/3/3c0aa246ab7195a60e3237c0ac09f78e8da43052.webp)
![arxiv:2404.09263v1 [cs.cv] 2024年4月14日PDF文件第3页](/bimg/b/bd990714ed777d6379a3f0a0cc0921f8ce704940.webp)
![arxiv:2404.09263v1 [cs.cv] 2024年4月14日PDF文件第4页](/bimg/4/4fba27fffeb1bbcf4ac0bc9f12036677bfd4de5a.webp)
![arxiv:2404.09263v1 [cs.cv] 2024年4月14日PDF文件第5页](/bimg/d/d27566384b45686c8d11ba76ff282c0626afc8c7.webp)
